Loading...
机构名称:
¥ 2.0

得分蒸馏采样(SDS)已被证明是一个重要的工具,可以使大规模扩散先验用于在数据贫困域中运行的任务。不幸的是,SDS具有许多特征性伪像,这些伪影限制了其在通用应用中的有用。在本文中,我们通过将其视为解决从源分布到目标分布的最佳成本传输路径来理解SD及其变体的行为的进展。在这种新的解释下,这些方法试图将损坏的图像(源)传输到自然图像分布(目标)。我们认为,当前方法的特征伪影是由(1)最佳路径的线性近似以及(2)源分布估计差的差。我们表明,校准源分布的文本条件可以产生高质量的生成和翻译结果,而几乎没有额外的开销。我们的方法可以轻松地在许多域上应用,匹配或击败专业方法的性能。我们在文本到2D,基于文本的NERF优化,将绘画转换为真实图像,光学错觉生成和3D素描到现实中演示了其实用性。我们将我们的方法与现有的分数蒸馏采样方法进行了比较,并表明它可以用逼真的颜色产生高频细节。

arxiv:2406.09417v2 [cs.cv] 2024年12月10日

arxiv:2406.09417v2 [cs.cv] 2024年12月10日PDF文件第1页

arxiv:2406.09417v2 [cs.cv] 2024年12月10日PDF文件第2页

arxiv:2406.09417v2 [cs.cv] 2024年12月10日PDF文件第3页

arxiv:2406.09417v2 [cs.cv] 2024年12月10日PDF文件第4页

arxiv:2406.09417v2 [cs.cv] 2024年12月10日PDF文件第5页